信息指导的采样(IDS)揭示了其作为增强学习(RL)的数据效率算法的潜力。但是,对马尔可夫决策过程(MDP)的ID的理论理解仍然有限。我们开发了新颖的信息理论工具,以限制有关学习目标的信息比和累积信息获得。我们的理论结果阐明了选择学习目标的重要性,以便从业者可以平衡计算和后悔的界限。结果,我们为香草IDS提供了先前的贝叶斯遗憾界限,该范围在表格有限的摩尼子MDP下学习了整个环境。此外,我们提出了一种计算效率的正规化ID,该ID可以最大化添加剂形式而不是比率形式,并表明它具有与香草-IDS相同的遗憾。借助利率延伸理论,我们通过学习一个代孕,信息不足的环境来改善遗憾。此外,我们将分析扩展到线性MDP,并证明了汤普森采样作为副产品的类似遗憾界限。
translated by 谷歌翻译
We study distributed contextual linear bandits with stochastic contexts, where $N$ agents act cooperatively to solve a linear bandit-optimization problem with $d$-dimensional features over the course of $T$ rounds. For this problem, we derive the first ever information-theoretic lower bound $\Omega(dN)$ on the communication cost of any algorithm that performs optimally in a regret minimization setup. We then propose a distributed batch elimination version of the LinUCB algorithm, DisBE-LUCB, where the agents share information among each other through a central server. We prove that the communication cost of DisBE-LUCB matches our lower bound up to logarithmic factors. In particular, for scenarios with known context distribution, the communication cost of DisBE-LUCB is only $\tilde{\mathcal{O}}(dN)$ and its regret is ${\tilde{\mathcal{O}}}(\sqrt{dNT})$, which is of the same order as that incurred by an optimal single-agent algorithm for $NT$ rounds. We also provide similar bounds for practical settings where the context distribution can only be estimated. Therefore, our proposed algorithm is nearly minimax optimal in terms of \emph{both regret and communication cost}. Finally, we propose DecBE-LUCB, a fully decentralized version of DisBE-LUCB, which operates without a central server, where agents share information with their \emph{immediate neighbors} through a carefully designed consensus procedure.
translated by 谷歌翻译
信息指导的采样(IDS)最近证明了其作为数据效率增强学习算法的潜力。但是,目前尚不清楚当可用上下文信息时,要优化的信息比的正确形式是什么。我们通过两个上下文强盗问题研究IDS设计:具有图形反馈和稀疏线性上下文匪徒的上下文强盗。我们证明了上下文ID比条件ID的优势,并强调考虑上下文分布的重要性。主要信息是,智能代理人应该在有条件的ID可能是近视的情况下对未来看不见的环境有益的行动进行更多的投资。我们进一步提出了基于Actor-Critic的上下文ID的计算效率版本,并在神经网络上下文的强盗上进行经验评估。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
Deep neural networks are used for a wide range of regression problems. However, there exists a significant gap in accuracy between specialized approaches and generic direct regression in which a network is trained by minimizing the squared or absolute error of output labels. Prior work has shown that solving a regression problem with a set of binary classifiers can improve accuracy by utilizing well-studied binary classification algorithms. We introduce binary-encoded labels (BEL), which generalizes the application of binary classification to regression by providing a framework for considering arbitrary multi-bit values when encoding target values. We identify desirable properties of suitable encoding and decoding functions used for the conversion between real-valued and binary-encoded labels based on theoretical and empirical study. These properties highlight a tradeoff between classification error probability and error-correction capabilities of label encodings. BEL can be combined with off-the-shelf task-specific feature extractors and trained end-to-end. We propose a series of sample encoding, decoding, and training loss functions for BEL and demonstrate they result in lower error than direct regression and specialized approaches while being suitable for a diverse set of regression problems, network architectures, and evaluation metrics. BEL achieves state-of-the-art accuracies for several regression benchmarks. Code is available at https://github.com/ubc-aamodt-group/BEL_regression.
translated by 谷歌翻译
TOR(洋葱路由器)网络是一种广泛使用的开源匿名通信工具,滥用Tor使得很难监视在线犯罪的扩散,例如访问犯罪网站。大多数现有的TOR网络去匿名化的批准都在很大程度上依赖手动提取的功能,从而导致耗时和性能差。为了解决这些缺点,本文提出了一种神经表示方法,以根据分类算法识别网站指纹。我们构建了一个基于卷积神经网络(CNN)的新网站指纹攻击模型,并通过扩张和因果卷积,可以改善CNN的感知场并捕获输入数据的顺序特征。三个主流公共数据集的实验表明,与最先进的方法相比,提出的模型对网站指纹分类非常有效且有效,并将准确性提高了12.21%。
translated by 谷歌翻译
组织病理学癌症诊断已经变得更加复杂,并且越来越多的活组织检查是大多数病理实验室的挑战。因此,用于评估组织病理学癌细胞的自动化方法的发展是值。在这项研究中,我们使用了来自挪威队的624个整个乳腺癌(WSIS)乳腺癌。我们提出了一种级联卷积神经网络设计,称为H2G-NET,用于千兆子宫内病理学图像的语义分割。该设计涉及使用PATCH-WISE方法的检测阶段,以及使用卷积AutoEncoder的细化阶段。为了验证设计,我们进行了一个消融研究,以评估所选组分在管道上对肿瘤分割的影响。指导分割,使用等级取样和深热敷细化,在分割组织病理学图像时被证明是有益的。当使用细化网络后,我们发现了一种显着的改进,以便后处理产生的肿瘤分割热量。整体最佳设计在90个WSIS的独立测试集中实现了0.933的骰子得分。该设计表现优于单分辨率方法,例如使用MobileNetv2(0.872)和低分辨率U-Net(0.874)的聚类引导,Patch-Wise高分辨率分类。此外,代表性X400 WSI的分割〜58秒,仅使用CPU。调查结果展示了利用细化网络来改善修补程序预测的潜力。解决方案是有效的,不需要重叠的补丁推断或合并。此外,我们表明,可以使用随机采样方案训练深度神经网络,该方案同时在多个不同的标签上余下,而无需在磁盘上存储斑块。未来的工作应涉及更有效的补丁生成和采样,以及改进的聚类。
translated by 谷歌翻译
基于信道质量,缓冲区大小,要求和约束将物理层资源分配给用户,表示无线电资源管理中的中央优化问题之一。解决方案空间组合在一起,每个维度的基数都使得使用穷举搜索或甚至经典优化算法难以找到最佳解决方案,或者给出了严格的时间要求。在MU-MIMO调度中,此问题更明显,调度程序可以将多个用户分配给同一时频物理资源。因此,传统方法采取了设计的开展启发式,以支持执行的可行性。在这项工作中,我们将MU-MIMO调度问题视为树结构的组合问题,并从最近的alphago零取得的成功借用,我们调查使用Monte Carlo树搜索和加固的组合搜索最佳执行解决方案的可行性学习。为了迎合手头的问题的性质,就像缺乏用户的内在订单一样,以及用户组合之间的依赖关系,我们通过引入自我关注机制来对神经网络架构进行基本修改。然后,我们证明所得到的方法不仅是可行的,而且非常优于基于最先进的启发式的调度方法,在存在测量不确定性和有限缓冲区的存在下。
translated by 谷歌翻译
由于非线性动力学,执行器约束和耦合的纵向和横向运动,部分地,固定翼无人驾驶飞行器(无人机)的姿态控制是一个困难的控制问题。目前的最先进的自动驾驶仪基于线性控制,因此有限于其有效性和性能。深度加强学习(DRL)是一种通过与受控系统的交互自动发现最佳控制法的机器学习方法,可以处理复杂的非线性动态。我们在本文中展示DRL可以成功学习直接在原始非线性动态上运行的固定翼UAV的态度控制,需要短至三分钟的飞行数据。我们最初在仿真环境中培训我们的模型,然后在飞行测试中部署无人机的学习控制器,向最先进的ArduplaneProportional-Integry-artivation(PID)姿态控制器的表现展示了可比的性能,而无需进一步的在线学习。为了更好地理解学习控制器的操作,我们呈现了对其行为的分析,包括与现有良好调整的PID控制器的比较。
translated by 谷歌翻译
模型预测控制(MPC)越来越多地考虑控制快速系统和嵌入式应用。然而,MPC对这种系统具有一些重大挑战。其高计算复杂性导致来自控制算法的高功耗,这可能考虑电池供电嵌入式系统中的能量资源的大量份额。必须调整MPC参数,这主要是一个试验和错误过程,这些过程会影响控制器的控制性能,鲁棒性和计算复杂度高度。在本文中,我们提出了一种新颖的框架,其中可以使用加强学习(RL)共同调整控制算法的任何参数,其目的是同时优化控制算法的控制性能和功率使用。我们提出了优化MPCWith RL的元参数的新颖思想,即影响MPCPROBLAB的结构的参数,而不是给定个问题的解决方案。我们的控制算法基于事件触发的MPC,在那里我们学习当应该重新计算MPC时,以及在MPC计算之间应用的双模MPC和线性状态反馈控制法。我们制定了一种新的混合分配政策,并表明,随着联合优化,我们在孤立地优化相同参数时,无法呈现自己的改进。我们展示了我们对倒立摆控制任务的框架,将控制系统的总计算时间减少了36%,同时还通过最佳性能的MPC基线提高了18.4%的控制性能。
translated by 谷歌翻译